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АНАЛ!3 ЕФЕКТИВНОСТ! ПАРАЛЕЛЬНИХ ТЕХНОЛОГИ 


В статье исследованы технологии МР! и ОрепМР на предмет повышения скорости обработки данных. 
Представлен и проанализирован интегральный подход к построению параллельных технологий. 
Приведены оценки ускорения и эффективности используемых технологий раздельно и предложенной 
интегральной технологии. 
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теззасе раззше пиегсе, Даа тасе. 


Введение 


Сегодня, благодаря развитию компьютерных технологий, стало возможным 
приступить к решению задач, требующих обработки больших объемов информации за 
разумное время. 

Одним из наиболее популярных средств программирования для компьютеров с 
общей памятью, базирующихся на традиционных языках программирования, в 
настоящее время является технология ОрепМР. Для создания параллельной версии 
последовательной программы пользователю предоставляется набор директив, 
функций и переменных окружения. 

Для компьютеров с распределенной памятью используется технология МР 
(Меззазе Разяте [тепасе). Основным способом взаимодействия параллельных 
процессов в таких системах является передача сообщений. Стандарт МРТ фиксирует 
интерфейс, который должен соблюдаться как системой программирования на 
каждой вычислительной платформе, так и пользователем при создании своих 
программ. 
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МР]|-программа — это множество взаимодействующих процессов. Все процессы 
порождаются один раз, образуя параллельную часть программы. В ходе выполнения МР]- 
программы порождение дополнительных процессов или уничтожение существующих не 
допускается (в МР|-2.0 такая возможность появилась). Каждый процесс работает в своем 
адресном пространстве, никаких общих переменных или данных в МР нет. 

В статье рассматривается задача эффективности применения технологий МР! и 
ОрепМР при решении разнообразных задач. Несмотря на то, что эти технологии 
работают с различными типами организации памяти (распределенной и общей) 
исследована возможность совместного использования технологий МРНОрепМР для 
разработки параллельных программ и оценена ее эффективность на конкретном 
приложении. 

Исследования показывают, что болыпинство узких мест при обработке 
параллельных программ может быть объединено в три группы. Первая связана с тем, 
что на различных параллельных компьютерах не все потоки данных обрабатываются 
идентично. Изучая особенности архитектуры компьютера, очень важно понять, что 
представляют собой те и другие потоки и описать их формально. Вторая 
определяется структурой связей между процессами программы. И, наконец, третья 
зависит от используемой в компиляторе технологии отображения программ в 
машинный код [1]. 


Система программирования МРТ 


Стандарт МРТ фиксирует интерфейс, который должны соблюдать как система 
программирования МРТ на каждой вычислительной системе, так и пользователь при 
создании своих программ. Интерфейс поддерживает создание параллельных программ в 
архитектуре МИМО (Ми@ре шзиасНоп Мире Ра), что подразумевает объединение 
процессов с различными исходными текстами. Однако на практике программисты 
гораздо чаще используют ЗРМО-модель (мае Ргоетат Мишре аа), в рамках 
которой для всех параллельных процессов используется один и тот же код. В настоящее 
время значительное количество реализаций МР! поддерживают работу с нитями. 

Все дополнительные объекты: имена функций, константы, предопределенные типы 
данных и т. п., используемые в МР|, имеют префикс пр!_. Например, функция посылки 
сообщения от одного процесса другому имеет имя МР %еп4.Все описания интерфейса МР 
собраны в файле три.В, поэтому в начале МР!-программы должна стоять директива # иде 
<три.>, 

Практически все программы, подготовленные с использованием коммуникацион- 
ной технологии МР], должны содержать средства не только для порождения и 
завершения параллельных процессов, но и для взаимодействия запущенных процессов 
между собой. 

В операциях коллективного взаимодействия процессов участвуют все процессы 
коммуникатора. Соответствующая процедура должна быть вызвана каждым процессом, 
возможно со своим набором параметров. Возврат из процедуры коллективного 
взаимодействия может произойти в тот момент, когда участие процесса в данной 
операции уже закончено. Как и для блокирующих процедур, возврат означает то, что 
разрешен свободный доступ к буферу приема или посылки. Асинхронных коллективных 
операций в МР] нет. 

Топология — это механизм сопоставления процессам некоторого 
коммуникатора альтернативной схемы адресации. В МРТ топологии виртуальны, то 
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есть они не связаны с физической топологией коммуникационной сети. Топология 
используется программистом для более удобного обозначения процессов и, таким 
образом, приближения параллельной программы к структуре математического 
алгоритма. Кроме того, топология может использоваться системой для оптимизации 
распределения процессов по физическим процессорам параллельного компьютера 
при помощи изменения порядка нумерации процессов внутри коммуникатора. 


Модель параллельной программы в ОрепМР 


Распараллеливание в ОрепМР выполняется явно при помощи вставки в текст 
программы специальных директив, а также вызова вспомогательных функций. При 
ис-пользовании  ОрепМР — предполагается  ЭРМЬ-модель — параллельного 
программирова-ния, в рамках которой для всех параллельных нитей используется 
один и тот же код [2]. 

Программа начинается с последовательной области - где работает один процесс 
(нить). При входе в параллельную область порождается ещё некоторое число 
процессов, между которыми в дальнейшем распределяются части кода. По завершении 
параллельной области все нити, кроме одной (нити-мастера), завершаются, и начинается 
последовательная область. В программе может быть любое количество параллельных и 
последовательных областей. Кроме того, параллельные области могут быть также 
вложенными друг в друга. В отличие от полноценных процессов, порождение нитей 
является относительно быстрой операцией, поэтому частые порождения и завершения 
нитей не сильно влияют на время выполнения программы. 

Для разработки эффективной параллельной программы необходимо, чтобы все 
нити в программе были равномерно загружены полезной работой. Это достигается 
балансировкой загрузки, используя различные механизмы ОрепМР. 

Существенной является необходимость синхронизации доступа к общим 
данным [3]. Само наличие данных, общих для нескольких нитей, приводит к 
конфликтам при одновременном несогласованном доступе. Поэтому значительная 
часть функциональности ОрепМР предназначена для осуществления различного 
рода синхронизаций работающих нитей. 


Модель данных 


Модель данных в ОрепМР предполагает наличие как общей для всех нитей 
области памяти, так и локальной области памяти для каждой нити. Переменные в 
параллельных областях программы разделяются на два основных класса: 

. зНагеа (общие; все нити видят одну и ту же переменную); 

. риуае (локальные, приватные; каждая нить видит свой экземпляр данной 
переменной). 

Общая переменная всегда существует лишь в одном экземпляре для всей об- 
ласти действия и доступна всем нитям под одним и тем же именем. Объявление 
локальной переменной вызывает порождение своего экземпляра данной переменной 
(того же типа и размера) для каждой нити. Изменение нитью значения своей 
локальной переменной никак не влияет на изменение значения этой локальной 
переменной в других нитях. 

Если несколько переменных одновременно записывают значение общей пе- 
ременной без выполнения синхронизации или если, как минимум, одна нить читает 
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значение общей переменной и, как минимум, одна нить записывает значение этой 
переменной без выполнения синхронизации, то возникает ситуация так называемой 
«гонки данных» (Аша гасе), при которой результат выполнения программы 
непредсказуем. 

По умолчанию, все переменные, порождённые вне параллельной области, при 
входе в эту область остаются общими (зпагед). Исключение составляют 
переменные, являющиеся счетчиками итераций в цикле. Переменные, порождённые 
внутри параллельной области, по умолчанию являются локальными (рйуае). Не 
рекомендуется постоянно полагаться на правила по умолчанию. Для большей 
надёжности лучше явно описывать классы используемых переменных, указывая в 
директивах ОрепМР опции рийуае, зпагед, Ягз{риуае, |1азриуае, гедисйоп. 

Динамически выделенная память также является общей, однако указатель на 
неё может быть как общим, так и локальным. 


Критерии оценки эффективности 


Для оценки параллельных алгоритмов в основном используют ускорение 
параллельных алгоритмов и их эффективность. 

Ускорение показывает, во сколько раз применение параллельного алгоритма 
уменьшает время решения задачи по сравнению с последовательным алгоритмом. 
Оно определяется величиной 


где Т! -— время выполнения алгоритма на одном процессоре, Ту время 
выполнения того же алгоритма на М процессорах. 

Очевидно, что идеальным является ускорение 5» =М№. В реальности это 
ускорение недостижимо из-за отсутствия максимального параллелизма в алгоритме; 
несбалансированности загрузки процессоров; временных затрат на обмен данными, 
разрешение конфликтов и на синхронизацию. 

В качестве оценки эффективности будем рассматривать величину 


где 5» — ускорение параллельного алгоритма, М — количество процессоров в 
системе. 

Несбалансированность загрузки процессоров существенно зависит от 
алгоритмов планирования [4]. 

Неизвестен эффективный способ априорного определения числа процессоров, 
для которого может быть получено наилучшее среди всех возможных 
распределение. Как правило, рассматриваются алгоритмы распределения при 
фиксированном числе процессоров. Задача может быть сформулирована следующим 
образом. 

Пусть задано Р-процессоров и множество задач 1, = {74, 72, ..., Г}, которые 
надо решить на ВС. Каждая задача из / может характеризоваться некоторыми 
параметрами, в частности, объемом требуемой памяти, необходимым временем 
центрального процессора и т. д. Следует построить распределение 31, 5, ..., Зр задач 
по процессорам ВС, учитывая параметры задач, с тем, чтобы минимизировать, 
скажем, общее время решения всего множества задач 7. 
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В общем случае распределение заданий по вычислителям необходимо осуществить 
таким образом, чтобы была решена одна из следующих задач: 
® время решения всего множества задач было минимальным; 
® загрузка всех компонент вычислительной системы была максимальной; 
® выбор конфигурации системы был оптимальным при заданном — времени 
решения всего множества задач. 

При распределении множества задач следует учитывать существующие связи 
между ними и обеспечивать экстремальное значение некоторому критерию качества при 
определенных ограничениях. Достижение экстремума может производиться и за счет 
изменения структуры ВС. Однако, динамическая адаптация структуры ВС очень 
ограничена, и поэтому обычно считают, что состав и структура ВС не изменяются за все 
время ее работы. 


Описание экспериментов 


Для оценки ускорения и эффективности выберем умножение матриц и решение 
систем линейных алгебраических уравнений методом Гаусса. 

Данные алгоритмы были реализованы на языке программирования С++ с 
использованием программного продукта Мисгозой У151а| Зато 2010 и библиотеки 
для создания параллельных программ МРГСН2. Он тестировался на 4-ядерном 
процессоре Пие® СогетМ 17-3770 (частота процессора - 3.4 ГГц, объем кэш-памяти 
—8 Мб, объем оперативной памяти — 8 Гб). Количество потоков совпадает с 
количеством ядер, задействованных в вычислениях. 


Таблица 1. Результаты тестирования алгоритма умножения матриц 


Параллельный алгоритм 
Размер 


3000 255,0253 130,3076 68,03396 


Затраты на коммуникации определяются пропускной способностью коммуни- 
кационной сети, латентностью, ее диаметром, который в значительной мере 


определяется топологий коммуникационной сети. Коммуникационные затраты 
могут быть сокращены за счет использования встречных обменов данными и 
асинхронной передачи данных. Несложно видеть, что ускорение для двух процессов 
находится на уровне Е = 1,94 , а для четырех — на уровне ЕЁ») = 3,75. 

Заметим, что при большой размерности задачи наблюдается небольшое 


снижение ускорения (это происходит и на двух, и на четырех процессах). Это 
связано со спецификой работы процессора. Для двух процессов эффективность 
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5 = 0,97, для четырех — 5, = 0,95. Незначительное снижение эффективности 


связано с увеличением затрат на коммуникацию при увеличении количества 
процессов. 


Таблица 2.Результаты тестирования параллельного алгоритма Гаусса 


М 1 поток 2 потока 4 потока 
1000 0,28 
2000 3,01 
3000 10,98 
4000 26,18 
5000 130,09 68,19 51,45 


Время работы алгоритмов указано в секундах. 

Для исследования интегральной технологии (МРНОрепМР) рассмотрим задачу 
моделирования процесса роста дендритных кристаллических структур. При этом для 
организации взаимодействия между узлами вычислительной системы используются 
средства МР1, а для обеспечения эффективных вычислений в пределах отдельных 
многопроцессорных узлов с общей памятью применяется ОрепМР. 

Для проведения эксперимента рассмотрим алгоритм моделирования процесса роста 
дендритных кристаллических структур [5]. 

Область, в которой рассматривается образование кристалла, разбивается сеткой на 
элементарные квадратные ячейки. Одну ячейку этой сетки мы будем считать 
минимальной неделимой единицей пространства — элементарным объемом. Каждая 
элементарная ячейка характеризуется своим состоянием: раствором или кристаллом, 
находящимся в этой ячейке, концентрацией вещества в ячейке, концентрацией примеси в 
ячейке. 

Рост грани кристалла рассматривается как пуассоновский поток событий. 
Событием является кристаллизация элементарной ячейки. Вероятность кристаллизации 
Р элементарной ячейки в зависимости от шага по времени А, вычисляется 


по формуле (1). 


р=1- ехр _ Е 
Ах } (1) 
где Г — средняя скорость роста грани кристалла; ЛД, Ах — соответственно шаги 
дискретизации по времени и пространству. За один шаг по времени кристаллизуется 
одна ячейка, выбранная случайно среди ячеек с одинаковой вероятностью 
кристаллизации, равной максимальной. 

Скорость роста грани кристалла зависит, в свою очередь, от концентрации 
примеси. Концентрация примеси в растворе С, может меняться от нуля до плотности 
этого вещества в твердой фазе р,. Очевидно, что скорость роста грани равна нулю 
при нулевой концентрации и стремится к бесконечности при приближении 
концентрации к максимальной р,. Концентрация насыщенного раствора соли Су и 
базовая скорость роста кристалла У являются известными величинами [6]. 
Окончательные выражения для скорости роста имеют вид (2). 
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а 
Г=И, —* 
“Я 


| Р: — Со | 


\ р. С Ня 2) 

При совмещении двух технологий особых проблем не возникло, так как каждая 
из них затрагивает разные аспекты алгоритма. МРП используется для разделения и 
передачи данных, а ОрепМР для распределения операций с полученными данными. 

Для сравнения эффективности работы программы было проведено ряд 
экспериментов при различных конфигурациях вычислительных систем (рисунок 1): 
на одном ядре, на двух ядрах одного процессора, на вычислительных станциях с 
двухъядерным процессором Сёегоп Оча|-Соте 2*2.0 СН2, 4 СЪ ВАМ, операционной 
системой \!Мш4о\з$ 7 х64, соединённых по сети. А также на рабочей станции с 
четырёхъядерным процессором шЕ Хепоп 2.0 СН7, 4 СБ КАМ, операционной 
системой \Мшдо\5 7 х64. 


2 


Число вычислительных узлов 


ОрепМР Х —МР+ОрепмМР 


Рис. 1. Ускорение вычислений на разном количестве узлов 


В таблице 3 представлены результаты работы алгоритма при размере сетки 1500х1500. 
Из этих данных видно, что при разделённой памяти и сильной зависимости смежных 
потоков по данным происходит замедление вычислений по сравнению с системами с общей 
памятью. Это связано с тем, что тратится время на пересылку данных, во время которого 
вычислительная часть программы простаивает. 

Таблица 3. Результаты запуска распараллеленной программы на разном числе 
вычислительных узлов 


595.2 
2 процессора (МРТ) 435,6 
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В результате анализа полученных данных можно заключить, что при 
организации параллельных вычислений на многопроцессорных системах с разным 
типом памяти, можно применять комбинированные технологии разработки 
параллельных программ. 


Заключение 


Анализ технологий и результатов экспериментов показал, что несмотря на 
существенное различие в типах требуемой памяти технологии МРГ и ОрепМР не 
только можно, но и следует использовать совместно. Важно лишь правильно 
распределить при решении конкретной задачи, на каком этапе ее решения 
использовать ту или иную технологию. От этого существенно зависит ускорение при 
ее решении. 
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Апа|!у$15$ 07 {Ве еНесйуепе$$ оГ рагаПе| фесппо1021е$ 

ш Фе агафе Фе МРГ апа ОрепМР {есбпо]ог?у Юг шсгеазше Ше зрее4 оЁ ажа 
ргосеззте \’аз шуезИсае4. Ргеземе ап апа[уте4 ап п\еотайе арргоасв ю Ше 
сопзгасНоп ог рагаПе| 1есБпо]оз1ез. Тре ргоетз айзше \Веп ргосеззше рагаПе| 
ргоэтата$ аге Югич1ае4. Соа5{ оЁР соттишсайоп$ 15 оЁеге4 10 Бе гедисе4 дие ю пе оЁ 
соитег Чай ехсБапоез, ап а15о еп азупсбтопои$ бапзЁег. ТВе езИтайоп$ оЁ Ше 
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